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I *n h Z n r R « ,evanzbawertun 9 bei der '"dexierung ^7^^ 
r> Die Erfinduno bezieht sich auf ein Verfahren zur Rele- 

vanzbewertung bei der Indexierung von Hypertext-Doku- 

menten mittels Suchmaschine, welches in drei Phasen 

ablauft. In der Aufbauphase liefertdas Robotersystem Hy- 

pertext-Dokumente an den Indexserver. Der Indexserver 

analysiert den Inhait der Dokumente nach drei unter- 

schiediichen Gesichtspunkten. In der Aktualisierungspba- 

se werden Dokumente, deren Inhalte sich seit dem letzten 

Besuch verandert haben, zunachstausdem Dokumen ten- 
index entfernt. Die betreffenden Termeintrage werden sk- 

tuatisiert. Sofern das veranderte Dokument weiterhin ver- 

fugbar ist, wird entsprechend den Arbeitsschritten der 

Aufbauphase in den index eingefugt. In der Anfragephase 

werden in Abhangigkeit vom verwendeten Anfragetyp 

{emfache Anfrage, komplexe Anfrage, Boolsche Anfrage 

odfar Phrasenanfrage) aus dem Index die Dokumente er- 

mitteil, dm auf die Anfrage zutreffen. Fur jedes gefundene 

Dokument wird der eigemliche Relavanzwert eusden vor- 
ausberechneten Relevanzwertanteilen, der zum Anfrage 
zeitpunkt vorliegenden Anzahl an Verweisen auf das Do- 
kument und der Gesamfanzahl der Dokumente im Index 
zum Relevanzwert des Dokuments verrechrtt. 
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Besehreibung 



[0001] Konven lione ! Ic S uchmaschincn arbcil.cn in der Re- 
gel auf dem Prinzip der VolUcxlindcxierung. Bei der \bli- 
lexlindcxicrung wini pro Dokumenl. die Haufigkoitsvcrici- 
lung von Begriffen dcs Dokumenis oder eines Toils dcs Do- 
kumcnts in einera inveriicrten Index erl'assl. Dicscr Index 
wird benutzt, urn /.urn Anli 

besrimmcn. in dencn die gcsuchl.cn Begriffe auftreien. Dcs 
wcilercn wird an Hand einer sysle-mspczifischen Reicvanz- 
bewertungsfunklion Tiir jodes Dokumenl cin Rclevanzwert 
cnnilLcll. Auf dcr Basis der Relcvanzwcrlc werden die Br- 
gebnisdokumenle answMcBend sorlicrf ausgegeben. 
|0002| Wcscnilich hicrbei isi die Taisache, dass /.or Be- 
wenung nur die Begrilfe hcrangezogen werden, die auch im 15 Suchi uasc hi 
Dokumenl auflreien. 

|0O03'J Bei der Rclevanzwertborcchnung konnen be- 
stimmtc Elcmcntc dcs Dokumenis siiirkor gcwiehlci wcrden 
als der normalc Texlinhall. Hierzu zahlen: 



des Dokumenis crfasscn und somit wird das 
Dokumenl nur fur die vom Dokumentenautor erfassten 
Bcdeulungen ais ruScvanler belraehtc! werden als an- 
dere Dokumenle. 

Durch die hohcre Gewichiung der Meia-Bcschrei- 
bungen isl dicRelevanzbewerlung bei unkonLrollierlcn 
Dokumenienmengcn offen fur Manipulationcn - als 
Spamming bozeichnel -. da die Dokumenlenauioren 
willkiirliche Begriffe in den Mcla-Beschreibungcn ver- 
wenden konnen. 



Mcla-Informationen, insbesondcre wcrden Inhalts- 
bi schreihendc Slicbworle ausgewerlet 

Titel und Uberschriften 

Die ersten 'Zeilcn eines Dokumcnts 
- Anzalit der Verweise auf das Dokumenl 

Ankertexte von Vcrweisen auf anderc Dokumenle 
■ Absiand zwischen Begriffen 



[0004| Die F.rmitf iung des Rele-vanzwerl.es cribigl auf der 
Basis der rciaiivcn riaufigkeilen der Begriffe mil Hilfc von 
Inlbmiaiions-Uieoreiischcn Metliodcn. Kurze Dokutncnte, 
in dencn die gesuchten Begriffe Iwulig auftrc.cn, werden als 
relevanter bzgl. der angcfraglen Bcgriffe beworlei als 



|0006] Bin bekanntes Verfahren zur Rclevanzbewerlung 
bei der tndexicrung von Tcxuro hasten auf dem Lycos Sy- 
icm. Bei dicscr I i in i rslcn konmtcrzielicn 

WWW zugrunde liegt, wurden neben 
einer eingcschranklen Volllexiindexierung, die Icdiglich die 
hundcrt "wichiigsien" BegritTe des Dokumems tndexierte. 
/.woi neuc Konzeptc cingcfiihrl. Erslcns. wurden Bcgriffe 
die in spcziell ausgezeichnelen Dokumentleilen auflraten 
(wic /.. B. 'filet, Uberschrii'icn, den ersten 20 Zc-ilen des Do- 
kumenis) bei der Relevanzbewertung slacker gewichtet als 
bei ihrem Auflrelcn in andercn Bestandlcilcn des Doku- 
mcnts. Zwcitcns. noss in die Relevanzbewertung eines Do- 
kumcnls bzgl. dcr Suchanfragc zurn ersle Mai eine Informa- 
tion liber die "Dokumertl.enumgeburig" in Form der "Anzahl 
der externen Verweise auf das Dokumenl" - a!s Popularitat 
bozeichnel - mil cin, so dass lirgebnisdokumcntc, auf die 
sehr oft von anderen Dokumenlcn aus verwiesen wird. als 
"relevanter" betrachlci werden als Dokumcnie, auf die selte- 
ner verwiesen wird (Mautdin 97). 

10007] Die "Anzabl dcr externen Verweise auf ein Doku- 
menl" kann als eine Form eines "citation index" beirachtci. 
werden, mil dein /.war in einigen Fallen die Qualital dcs Su- 
cherg bnisscf *c bef c , werden kann w I he abet nichl in 



Dotumc b n,c oder Dokuntenu, in dencn diegesuch.cn « f^^J^tl^^Z^Z 



. , h ,i T yco: i ( h den BegrilTcn "Deutsche Telekom' 
atcre f'ressc'vcrdl&iiilichungen als "popularer" betrachtel 
als die Homepage dor Deulschen Telekom, auf die mil. gro- 
Ber Wahrschcinlichkcil weiiaus offer verwiesen werden 
diirfte, Insofern erscheinl die veroffentlichte Aussagc uber 
die Berucksichtigung dcr Popularilat als fragwiirdig. 
[0008] Darubcr hinaus werden hierdurch Meta-Beschrei- 
bungen des Inhalls nur im Rahmen dcr Methoden der einge- 
setzten eingesehrankten Volltexiindcxicrung beriicksichligt. 
lierte Dokut^nienmcngen \onzi P ierl, die nichl not- 45 [00091 BekannUst weiterhin ein mil Rankdex be^.chne- 
wendi-erweise als verknupfler Hypertext ausgelcgi tes Verfahren. Mil Rankdcx wurde eine ersle expenmentelle 
sind. Fine Ubernahrnc dcr Volltexlindexierung flir Hy- Implementierung (http^/rankdex^an com/) einer neuen Rc- 
pertexte (wie z. B. das World-Wide-Web (WWW) oder levanzbewertungsfunkiton verbffeniJicht welche auf dem 
Wcb-basierte- Intranets) nutzt die in den - in Hypertex- Prinzip des "Hyper Veklor Volrags (HVV) baasrt O-i 98). 
ten verwendeten - Verweisen kodiertc Information SO Bei dieser Bewcrtungsmcthode werden sowohl die Popula- 



Begriffe seltener auflrelcn. Bntsprechend der informadons- 
theoretischen Belrachtungsweise werden seltenc Bcgriffe 
bezogen auf den gesamtcn Dokumenlenbcsland - starker 
gewichtet. ais Begriffe, die tin gesamlen Dokumenlenbc- 
sland haufiger auftreten. 

[0005] Verbunden mit diesem Ansatz sind folgcndc Pro- 



- Rcine Volltextindexicrung wurde tut kieine, konlrol- 



- Es konnen lediglich Begriffe gesucht werden. die in 
den Dokumenten solber auflrelcn, bzw. Tur die mil 
Hilfe eines Thesaurus synonyme Begriffe beslimmt 
werden konnen, die in den Dokumenten auftreten. 5 

- Das Vorkommen von Begriffon einer Anfrage in ei- 
ncm Dokumenl sagl in der Regc! wenig bzgl. der Rele- 
vanz des Dokumcnts bezogen auf die Anfrage aus, da 
die Bedeulung der Begriffe nicht erfasst wird und da- 
mil auch keinc Aussagen Oner die Bedoutung des ge- £ 
samten Dokumcnts nwglich sind. Um dieses Defizit 
auszugleicheri, wurden AnsStze eniwickclt, bei denen 
dieDokumentauioren die Bedeutung des T>okuments in 
Form von Meta-Beschreibungen annoderen und bei de- 
ncn das Vorkommen dcr gesuchten Begriffo in den < 
Meta-Beschreibungen starker gewichtet wird und so zu 
einem hoheren Reievanzwert fUhrt. 

- Der Dokumenlenaulor wird nicht allemog lichen Bc- 



als auch die "Texle - ills Ankertcxte bezeichnet -, die in 
externen Verweisen auf ein Dokument verwendet werden" 
bcrucksichligt, so dass "Dokumenle, auf die haufig mit den 
gesuchten Begriffen verwiesen wird" aSs relevanter betrach- 
let werden als "Dokumente, auf die seltener mit den gesuch- 
ten Begriffen verwiesen wird". Der Itihalt der Dokumenle 
wird bei dieser Methode - bis auf die Ankertexte nichl be- 
riicksichligt. 

100101 Diesem Verfahren liegt die Beobachtung zu 
Grande, dass Dokumentatitoren, die auf ein anderes Doku- 
menl. verweisen, den Verweis in den meisten Fallen mil. ei- 
ner kurzen und sehr priignanlen Besehreibung versehen. die 
den Inhall des Dokuments. auf das verwiesen wird, sehr gut 
besehreibi, so dass der verwendete Ankertext als Mcta-Be- 
schrcibung betrachtel wcrden kann. Wird bcispiclsweise cin 
Verweis mit. den Begriffen "Deutsche Telekom" versehen, 
so wird man durch den Verweis in den meisten Fallen auf die 
Homepage der Deulschen Telekom verwiesen wcrden. 
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[0011] Die Mela-Bcschreibungen der Ankertexte werden 
in der Rcgcl von einer Vielzahl von Autoren erzeugl, wobci 
diese durchaus auch alternative Begriffe in den Ankertexten 
verwenden werden. So im cs boispielsweise inflglich, dass 
auf die "Homepage" der Dcuischen 'Iblexom int WWW 
auch mil den Anteflexion "Homepage cicr Dcuischen Tele- 
kom", "Deutsche Telekom AG", "Telekom". "German Tele- 
kom" etc. verwiescn wird. All diese Ankcrlcxie konncn als 
tdicrnative Meta-Beschreihungen bclraclitci werden. 
[00121 Die- Gcfahrdcs Spammings isi /.war auch bci die- 
scm Ansalz gegeben. da prin/.ipiell ein Dokumenfautor 
(lurch die gcziclte Verwcndung von beslimmten Ankertex- 
ten die Relevanzbeweriungsfunkliori manipuliercn kann. 
Dennoch isi der liitilluss dieser 1'orm des Spammings auf 
die Relcvanzbewertungsfunktion jedoch vergleichsweise 
: goring, da sic durch die Anzahl und Art der Ankertexte, die 
von anderen Autoren verwendet werden, nivelliert wird. 
[0013] Mil dicscr Form dor Rclcvanzbcwcrtung isi ca dar- 
uber hinaus miiglich, auch Dokumenle zu finden, in dencn 
die Suehbegriffe sclber nicht. auiirelen, die abcr mit den 
Suchbegriffen beschrieben werden kfinnen. Des Weiieren 
konnen auch Dokumenle in anderen Sprachen gefimden 
werden, bzw. Datcicn mil nichi.-textucllcm Enhall. wie /.. B. 
Bild-. Audio-, Video-, Oder Archivdaleicn oder ausfiihrbare 
Programme. 

[0014] Dor Rankdex Ansalz isi jedoch dadurch be- 
schra'nkt, dass er den eigentlichen Inhall der Dokumente 
nicht beriicksichligl, 

[0015] Bei Rankdex handell cs sich urn eine experimen- 
lelle Implenienticrung einer Suchmaschine, die auf IFVV 
basiert Zu lestzwecken wurden bei diesem Experiment 
19973.3 Millioncn Intcmciseiten gesammell und ein Index 
von rand 100 MB aufgebaul. Durch einen Vcrgleieh mil an- 
deren Suchmaschincn konnte nicht nurdie Qualiliit der Er- 
gebnisse- unierBcweis geslcltt werden, cs konnten ebenfalls 
die Vorteile und die der bereils oben beschricbene Nachicil 
ideniifiziert. werden. Rankdex konnic bisher nicht inspiziert 
Oder gctestet werden, da die publizicrtc URL h«p://rank- 
dex.gari.coin/ bisher nicht zugreifbar war. 
[00KS] Mil dem Ansalz von Google (Bryn & Page, 98) 
wuide eine Mediode vorgcstellt, mil der die Nachteilc liiner 
Volltexlindexierung, der aiieinigen Bcurteilung der Poputa- 
rilat unci der Ankertexie behoben wurden . 
10017] Der mil Google vorgesiellie Ansalz beruhl darauf, 
dass alje zu verarbeitenden Dokumente aus dem WWW ge- 
laden und loka! gespeicherl werden. Aus diesen Dokumcn- 
len wird die topologische Verwcisstrukiur extrahierl und 
ebenfalls gespeicherl. Mit einer Bewertungsfunku'on wird 
der "sogenanntc PageRank" mil Hilfe eines in mehreren 
Durchtaufen konvergierenden. ilerativen Algorithms be- 
recbnel, Der PageRank eines Dokurnents errechnet sich aus 
den PageRanks "aller Dokumente, die auf das Dokumenl 
verweisen" und betrachlet lcdigLich die topologische Vcr- 
weisstruktur und nicht den Inhall der Dokumenle. Da eine 
Ruckwarlsverfolgung von Verweisen fan WWW nicht mog- 
lich ist, kommi dieser Ansalz nichi umhin, alle Dokumente - 
resp. einen GroBteil - zunaehst zu laden und die topologi- 
sche Verweissiruktur lokal zu speichern, bevor mit der Be- 
rechnung des PageRanks begonnen werden kann. 
[0018] Bedingt durch die iokale Speicherung der Doku- 
mente und der lopologiscben Verweissiruktur wird viei 
Speicherplatz benotigi. 

I 0019] Die Berechnung des PageRanks erfolgt. dann sclber 
in einem Stuck, so dass der verwendele Algoriihmus als 
"konipilicrcnd" bczcichnct werden kann. (Bryn & Page 98) 
schreiben "a PageRank of 26 million web pages can be com- 
puted in a few hours". Zusammen mit einem anderen Pro- 
zess - als Sorter bezeiebnet -. der rund 24 Stunden fiir die 
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Sorticrung dieser Dalenmenge benbligi, bcnOtigt der Aktua- 
lisierungsprozess von 26 Mio. Dokumenle des Indexes dem- 
nach weii. mehr als 24 Stunden. Wie dies zu der zuletzl go- 
schiimcn TndcxgroRe von rund 190 Mio. Dokumcnlen ska- 
J fieri, and ob dies weiier oplimien wiirde. isi unbekannl. 
[0020] Zwar lerminiert die Berechnung des PageRanks 
bei den Dokumcnlen, auf die von kcincm anderen Doku- 
menl aus verwiesen wird, so dass deren PageRank priovi- 
pieli als konsianl belrachlci werden konnic. Das garaniicn 
i'i aber nichl. dass nicht irgendwann doth aufefic Dokumenle 
verwiescn wird. so dass die Bcrcehnunj k PagcRanl b 
einer Aklualisicrung auch fiir diese Dokumenle immer von 
Nenetn erfolgcn muss. 

[0021] Bedingt durch den kompilierendcn Ansalz bci der 
is PageRank Berechnung kann cine Aklualisicrung des Inde- 
xes nur in zeitiich groBeren Abslanden erfolgcn. 
|0022| In die eigcntliche Berechnung des Relevanzwerls 
der Suchergcbnissc nieBcn neben dem PageRank und den 
Standardmalkn des Information Retrievals weilcre Informa- 
20 tionen ein. wie z.B. das Vbrkommen der Suehbcgrifte im 
Titel, in Ankertexten, URLs oder speziell m gezeichn ten 
Textleilcn und - bei Mchrworlanfragen - die Nahe zwischen 
den Vorkommcn der einzelncn Begriffe. Wic diese Informa- 
lionen milcinander verknuplt werden, ist nicht bekannt. 
2S [0023] Bei Google handell es sich utn cine Internelsuch- 
inaschine, die aus einem Projckt der Stanford University 
hervorging, welches 1998 in der Griindung der Pinna Goo- 
gle, Inc. mtindcie. Aus der ZeiL vor der Pirmengrundung 
sind detaillieriere und publizierte Infornialionen uherGoo- 

30 glo bekannt. 

[0024] Bci Google werden wic bei Rankdex Ankertexte 
gesondert bewertet. TTierbci liegi der Untcrschied der Ver- 
fahren, neben der gesonderteii Bewertung anderer Texlkom- 
poncnlen. in der Beweriungsfunktion. Zwar wurrte iiir Cjoo- 

* 8 !e diese Beweriungsfunktion ni. hi im D tail veKiffcmlichi 
dermoch isi bekannt, dass sie neben dem DokumentinliaK 
auch die Posiuonen der gesuchten Begriffe im Dokumenl, 
Pormaticrungsinfonnationen, Ankertexte und den Page- 
Rank des Dokurnents miteinander kombinicrt. 
[0025] Der PageRank eines Doku menus ist ein globaler 
Wert, der unabhangig vom Inhall allein aus der topologi- 
schen Struktur des WWWs bestimmt wird und als "Zitie- 
nmgsgrad" interpretiert werden kann. Vbreinfachl gespro- 
chen erhallen Dokumente, auf die von "wichtigen" Doku- 

43 merrtcn vcrwie en vird, einen hoheren PageRank als Doku- 
menle. auf die von "unwichligen" Dokumenten verwiesen 
wird. Je 5fler auf ein Dokumenl verwiesen wird, desto 
"wichtiger" wird cs cingestufi. 

J0026] Der PageRank kann allein aus der lopologischen 
so Slruklur, der Anzahl der Verweise und dem PageRank ande- 
rer Dokumente bestinunt werden. Zur Berechnung des Pa- 
geRank eines Dokurnents wird der PageRank aller Doku- 
mente verwendet, die auf das Dokumenl verweisen. Zur 
korrokten Berechnung des rckursiv definierten PageRanks 
55 eines Dokurnents muss somit der PageRank der auf sie ver- 
weisenden Dokumente bekannt sein 
[0027] Hieraus crgi bt sich konseq uenterweise der Schluss, 
dass bei einer Anderung des PageRanks eines Dokurnents 
nicht nurdessen PageRank akluaiisiert werden muw son- 
50 dent auch der PageRank ailer von diesem Dokumenl. aus er- 
reichbaren Dokumente. Im sehlimmsten Fall muss bei der 
Anderung eines Dokumcnls der PageRank aller Dokumente 
des Index neu berechnel werden. 

[0028] Fur Google wurde nicht beschrieben, wie die Be- 
ss wenungsfunktion die einzelncn bewcrtcten Infonnationcn 
kombiniert. Insofem ist auch unklar, wie Infornialionen aus 
dem Ankertexten mit dem PageRank kombiniert werden. 
Den Publikafionen iiber Google kann enlnommen werden, 
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dass eine Anderung von Dokuntenten zwar permanent in 
den Index aufgenommen wird, die Berechnung des Page- 
Ranks und die Sortierung des Index jedoch in einer Stapel- 
verarbeilung (Balch-Fauf) erfolgt, die allein fiir die paraliele 



[0037] Durch unlerschiedlichc (iewichtung diescr F.le- 



Sorlierung von 24 Mio. Dokumenlen auf vier Rechnem rund 5 mcntc isl die RelevanzbcwcrlungsfunkSion selber konfigi 
t* >i imi hcniiiigl. ITiera t bl sich die Folgcrung ' s 



n Index-Update als Siupelverarbeilung durehgefuhrt wird. 
und sotnil lndcxaklualisierungen nur in zeittich grolieren 
Abslanden erfolgen. 

[0029] Die liriindung ist auf ein Rolcvanzbcwemingsver- 
fahren ausgerichlci., dass eine besserc und akluellcre Inde- 
xierung von Ilyperiext-Dokumenien ermoglichi. 
|<)03of tirundlagc des crliwIungsReniaBcn Verfahrens is) 
cine Suchmascbine, die nachfolgcnd mil "TeleFinder" be- 
zeiebnetwird. 15 
10031] Die Suchmaschine TeleFinder besteht so wie die 
meisten bekannten Suchmaschinen, ira WescntHchen aus 
zwei Kompononlcn, einem Robotcrsystcm inkiusivc Daten- 
bank und einem Indexserver inkiusivc Benutzeroberflache. 
[00321 Das Robotcrsystcm liidl ausgehend von Slarladres- 20 
sen Dokumcnte, durchsucht sic auf bishcr unbekannte Do- 
kumentadressen und ubergibt die Dokumente dem Indexser- 
ver. Ausgehend von den neuen, unbekannten Adrcssen wer- 
den die korrespondierenden Dokumente geladen und der 
Zyklus emeul durehlaufcn, bis alle erreichbaren Dokumenle 23 
verarbeilet wurden. 

[0033] Der Indexserver anaiysierl den Inhali der Doku- 
mente und baut einen invcrtierten Index auf, weleher fiir die 
Anfragebearbeitung benutzl wird. Wie bei jeder anderen 
Suchiiiaschine audi, wird die QualiiSi der Suchcrgebnissc 30 
(lurch die Inhalte der Dokumente, die Beriicksiehtigung aus- 
gewahlter SLrukturelemcnte und insbesondore auch durch 
die verwendcte Bcrechnungsfuiiklion bestimmt. 
[0034] Das crfindungsgemuBe Rclcvanzbewertungsver- 
fahrcn fiir den Indexierungsvoigang des TeleFinders basien .» 
auf der Grundidee die aus dem "Hyper Vector Voting" 
(HVV) bekannle Verfahrensweise dcrErmitllung des Rele- 
vanzwertes eines Dokuinentes anhand der Ankertexte von 
Verweisen, die auf das Dokunient verweisen, mil der aus der 
konventionellen Volkexlindexierung bekannten Verfahrens- * 
weise, die auf der Indexierung von Suchbegriffcn aus dem 
eigentlichen Dokunient basiert, zu kombinieren. Das erfin- 
dungsgemaBe Vert'ahren bewirkt cine neue Qualiial bei der 
Suche nach relevanten Dokumenten. da es die posilivcn Ei- 



[0038] Das erfindungsgemaGe Relcvasizbcwertungsvcr- 
fahren lauft in drei Phascn ab. Die drei Phascn rniissen dabci 
nicht notwendigcr weise scqueniie-11 ablaufen. 
[00391 In der ersi.cn Phase, die mil Aufbauphase bezcleh- 
net wird, Hclerl das Robolersyslem Ilyperlexl-Dokumcnte 
an den Indexserver. Der In^L. servet un Jwcrl den Malt 
der Dokumemc nach drei unlcrschiedlichen (Jesichtspunk- 



1. Werden Verweise in dem Dokunient idemifizierl, so 
wird fiir jede aus dicsen Verweisen bcslinmibare 
Adrcssc cin ncucr Dokutncnlcncinlrag im Index ange- 
legl, sofern ein solcher noch nicht exisliert. Ansonslen 
wird derDokumentcneintrag cntsprechend aklualisiert. 
Fur die in den Verweisen verwendcten Bcgriffe der An- 
kertexte werden neue Tcrmeintragc im Index angelegl, 
sol'ern diesc noch nichl existieren. Ansonslen werden 
die entsprechenden Tenneintriige aklualisiert. Fiir je- 
den Begriff des Ankerlexles wird enlsprechend einer 
Gewichlung ein partiellcr Kelcvanzwert. vorausberech- 

2. Werden spezieli markic-rte Texlinhalte (z. B durch 
die HTML Auszcichnungen TSlol, HI, H2 Oder H3 
markiert) in dem DokumenL identifiziert , wird fUr jeden 
Begriff, der in dicsen tnarkierten Textinhalterj vcrwen- 
det. wird, ein neuer Termeimrag im Index angelegl, so- 
fern dieser noeh uicbl existierl. Ansonslen werden die 
entsprechenden Ternieintnige aklualisiert. Fur jeden 
identiiizierten Begriff wird entspreehend der Gewich- 
lung der Markierung ein pariieller Relevan/.wert vor- 
ausberechnet. 

3. Fiir jeden anderen nichl-markiertcn Tcxlinhall wird 
ein neuer Termeintrag im Index angelegl, sofern diescr 
noch nicht existierl, Ansonsten wird der enisprechende 
Termeintrag aktualisiort, Fiir jeden diescr BegriQ'e wird 
ein partieller Rcicvanzwert vorausberechnet. 



[0040] Inderzi 



:n Phase, die a!s Aktualisierungsphase 



genschaden des Hyper Vector Voting Verf ahren s mit den po- 45 bezeichnet wird, werden Dokumen te deren Inhalte sich 



sitiven Eigenschaflen des Verfahrens der konventionellen 
Volltcxtindexierung in einem neuen Verfahren vereinigt. 
[0035] Gegenuber herkoinmlicher VoEtextindexierung 
flieBen durch die besondere Berucksichtigung und Gewich- 



dem letzten Besuch verandcrt haben, zunachst aus dem Do- 
kumenlenindex enlfcrnt. Die betreffenden Tenneintriige 
werden aklualisiert, Sofern das veranderlc Dokoment wci- 
lerliin verfUgbar ist, wird es entspreehend den Arbeitsschrit- 



Ankertexten (der Texte, mit denen die Verweise 50 ten der Aufbauphase in den Index eingefugL 



lung v 

auf ein Dokumenl versehen werden) in die Gcsamthewcr- 
tung auch Iohaltsbeschreibungen ein, die von anderen Do- 
kumentenaatoren erslelll, wurden. Die Ankertexte, die meisi 
sehr pragnant und prazise den Inhak des refcrenzierten Dr> 



[0041] Diese Verfahrensweise hal u. a. den Vorleil, dass 
ein Dokunient - solange es sich nicht verandert hat. - nur 
einmal iiber das Net/, von einem anderen Server geiaden 
werden muss, und dass es nicht lokal g 



kuments beschreiben, bilden so eine Form von Mela-Be- 55 muss. Daruber hinaus enndglicht diese Verfahrensweise 



schreibung, die bei der Bewertung berUcksiehligt wird. 
1 0036] Zur Relevanzbewertung benutzt der TeteFinder ein 
Relcvanzbewertungsverfahren, weiches durch Gewichlung 
unterschiedticher Anteiie der Funklion paramctrisiert wer- 
den kann. Unterschiedlich gewichtet werden kann so der 
Einflufi der folgenden Dokumentenbestandleile auf den Ge- 
samtrele-vanzwert: 

- Titei 



auch Verweise auf Dokumente in den Index aufzunehmen, 
deren zugehbrige Dokumente seiber noch nicht geladen und 
analysiert wurden. 

[0042] Dariiber hinaus wird durch die partielle Vorausbe- 
) reebnung der Relevanzwcric die Besli m run rig des Relevanz- 
werts zum Anfragezeilpunkt minimiert. Mit unlerschiedli- 
chen CJewichiungswerten fiir Ankertexte in und auf Doku- 
mcnte, furPlirasen und fur unterschiedliche Textniarkierun- 
gen, ist die ReSevanzbewertungsfunktion paraittctrisierbar 



- Ubcrschriftcn unterschicdlichcr Glicdcrungscbencn 65 und somit ilexibel konflguricrbar. 



- Phrasen 

- Phrasen in Ankert.exl.en 

- Texte in Verweisen auf das Dokumenl. 



|0043] Die dritte Phase wird mit Anfragephase bezeich- 
[0044] In der Anfragephase werden in Abhangigkeil vom 
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verwendclen Anfragclyp (einfaclw Anfrage. kompiexe An- 
frage, Boot'schc Anfrage odcr Pbrasenanfrage') aus dcm In- 
dex die Dokumenie ennilLcll, die auf die Anfrage zulreffen. 
Pur jedes geftindcne Dokmnenl wird der eigentlichc Rele- 
vanzwert aus den vorausberechneien Rclcvan/.wcrianlcilen. s 
der zuiii Anfragczeilpunki vorlicgendcn An, ah! an Verwei- 
sen auf das Dokumenl und der Gesarsilanzahl iter Doku- 
mente int Index y.um Rclcvan/.wert des Dokumenis verrcch- 

j«045] Ini Gcgensatz zu dem mil Google vorgcslelllcn u> 
Ansalxhandcli cs sicb bci der int Tclcl-indcr rcaiisiertcn L5- 
sung urn ein inkremenlelleK Vcrfahren. bci dcm aklualisierte 
Dokumenie direkl in den Index inlegrierl werden und somil 
prinzipiell unigehend ■ nachemciii als "flushen" he/ciehrte- 
len Spcicliem des Indexes zur Sucho hcrciigcstelll werden. is 
frn Vcrgleich zu dem Google Ansalz kann dadureh cine 
weilaus hohere Akuialiiai des Indexes garantieri werden. 
Durch die dircklc inkrctncnlcllc Vcrarbcitung von ncuen 
bzw. aklualisietlen Dokumentcn miisscn koine lokalen Ko- 
pien der Dokumenie gespcichert werden, so dass der beno- 20 
tigte PlaUenspcichcrplal/. draslisch reduzicrl werden kann. 
[0046] Cegeniiber dcm Rankdex Vcrfahren verbal t sich 
TeleFinder wie cine konventionelle Volltextsuchmaschinc, 
sofem die gesuchlen BegrilTe nichl in Ankertexten auftre- 
len. Das tiegl darin begrimdel, dass audi der Inhall der Do- 25 
kumenle indexiorl wird. 

1 0047] 7.war wird im erfi ndungsgemiilien Rele vanzbewer- 
tungsverfahren wie auch im Lycos- Vcrfahren die Popularitai. 
der Hrgebnisdokumente bewertel, jedoch gcht die Bewer- 
tung nach der erfindungsgeniaBen Ldsung weiter als beim :«> 
Lycos- Vcrfahrcn, da neben der roinon Votltexlindexierung, 
dei Berttcksichiigung spezicllcr Dokumemenbcstandleilc 
und der PopularitaL, wie bci Rankdex und Google auch die 
Ankcrtexle beriieksichtigt werden. 

£0048] Die Relevanzbewemingsfunklion isl darUber hin- K 

f lie-jisicrl i lit ii In bci d In u lung 
berucksichliglen Bcsiarsdteile unlcrschiedlicli gewichlcL und 
die Beweruingsfunkiion insgesatttl. becinfiusst werden kann 

Patentanspriiche AO 

I. Verfahren zur Rclcvanzbcwertung bei der Indexie- 
rung von Hyperlexl-Dokumenlen mittels Suchrna- 
schine, bei dem Hypertext-Dokumente in der Indcxie- 
rungskomponenle der Suchmaschine ausgewerlel wer- 45 
den, dadureh gckeruizeichnct, dass es in cine Aufbau- 
phase, eine Aktualisicrungsphase und eine Anfrage- 
phaseuntcrteiitisi, 

dass in der Aufbauphase die ITypertexl-Dokumcnle in 
derlndexierungskomponcntegleiehzciii;. au! das Vor- so 
handensein von Verweisen, spezieil markierten und 
nichtmarkierten Texlinhalten durchsucht werden, wo- 
bei 

a) bci der Iden(Ifi/.icrung von Verweisen, fur jede 
aus diesen Verweisen bestimmbare Adresse ein Si 
neuer Dokumenteneintrag in der Indexienings- 
komponente angelegt bzw. ein bercits vorhande- 
ner Dokumcnleneintrag aktuaiisiert. wird, dass fur 
die in den Verweisen vcrwendelen Begriffe der 
Ankcrtexle ebenfalls ein neuer Termeinirag in der (So 
Index ierungskornponeme angclegl. wird bzw. ein 
bercits vorhandencr Termeinirag aktuaiisiert wird, 
und dass fur jeden Begriff des Ankerlextes ein 
parlielier Relevanzwert vorausberechnel wird. 

b) bci der Idcnlifeicrung von spczicll markierten 6S 
Texlinhalten, fur jede ermiUelte Markierung ein 
neuer Termeinirag in der Itidexierungskompo- 
nente angelegt. bzw. ein bercits angelegter Term- 



einirag aktuaiisiert wird, dass fur jeden markienen 
Begriff ein pariiellcr Relevanzwerl. vorausbcrcch- 
net wird, und 

c) bei der Idenlifizierung von nichl-tiuirkiertcn 
Textinformationen in eineni auszuwertenden Do- 
kuincnl ein neuer Tbrmoinlrag in der Indexie- 
rungskoiuponenrc angelegt bzw. ein bercits zu der 
'lexiinformalion vorhandener Tenueintrag aktua- 
iisiert wird, und dass ftir jeden Termeinirag ein 
pariiellcr Relevan/wc-n vorausbercehnct wird, 
dass in der Aktualisierungsphase bercits crfasslc und 
indcxtene Dokumente. dcren Inhall sich geandcrt bal. 
auumialisch aus dem Dokumcntcnin It ■ ; elos hi wer- 
den, 

dass die Tcrmcinlrage zu diesen Dokumemen aktuaii- 
siert werden, und dass die geanderlen Dokumente so- 
fem sie vveilerhin vcrftigbar sind, noch einmal emspre- 
cbend der Aulbauphasc in der Indcxierungskonipo- 
ncnle erfasst werden, und 

dass in der Anfragephase auf die Anfrage cines Nuizers 
in Abhangigkeil votn Abfragelyp, wie einfache Fraac. 
komplcxe Frage, Bool'schc Anfrage bzw. Phrasenan- 
fragc aus der Indexierungskomponente Angaben zu re- 
Icvanien Dokumenlen ermiliell. werden, wobei fiir je- 
des eniiitielleDokumcnl der eigeiittiche Relevan/.werl 
aus den vorausberechneten Relevan/.wertanlcilen, der 
zuiii Anfragezeilpunkt vorlicgendcn Anzahl an Ver- 
weisen auf das ermilteilc Dokument. und der Gesamt- 
zahl der Dokumenie in der Indexierungskomponente 
bereehncl wird, und dass die cnisprechend ihrer Rele- 
vanzbewertung gconlnclen Angaben zu den Dokunien- 
ten zusammcti mil Zusai/.int'ormaiioncn an den Nuizcr 
ausgegebeu werden. 
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